Meskipun pencarian padat merevolusi pencarian dengan menangkap niat semantik, lingkungan produksi mengungkap kebenaran pahit: embedding vektor sering 'menghaluskan' detail penting seperti ID produk, akronim langka, dan jargon teknis. Dunia nyata tidak murni bersifat semantik; ia merupakan kombinasi kacau antara makna abstrak dan identifikasi yang kaku.
Realitas Produksi
- Keunggulan Lembaran Kata: Pencarian leksikal (seperti BM25) tetap menjadi standar emas untuk kata-kata persis dan tumpukan frasa. Ia tidak berusaha menebak "apa yang Anda maksud"; ia menemukan "secara tepat apa yang Anda katakan."
- Jurang Semantik: Pencarian padat sangat kuat dalam mencocokkan makna (misalnya, "masalah pembayaran" cocok dengan "kegagalan transaksi"), tetapi secara inheren kesulitan dalam sinyal-sinyal jarang yang presisi tinggi sinyal jarang seperti nomor SKU atau kode bagian.
- Kebutuhan Hibrida: Pencarian hibrida ada karena dunia tidak murni bersifat semantik dan tidak murni bersifat leksikal. Perilaku pengguna terbagi duaβkadang mereka mencari konsep, kadang mereka mencari token spesifik 'jarum di tumpukan jerami'.
Wawasan Teknis
Pencarian padat kuat dalam mencocokkan makna, sedangkan pencarian leksikal kuat dalam kata-kata persis, pengidentifikasi, dan tumpukan frasa. Pertanyaan pengguna nyata sering membutuhkan keduanya. Pencarian hibrida ada karena dunia tidak murni bersifat semantik dan tidak murni bersifat leksikal.